引言:挣脱枷锁,迈向通用推理
大型语言模型(LLM)在特定领域的推理能力已令人瞩目,尤其是在数学和编程等结构化领域。然而,这些“优等生”在面对物理、化学、金融、人文社科等更广泛、更复杂的真实世界问题时,往往显得力不从心。其核心瓶颈在于:高质量、多样化训练数据的稀缺,以及答案验证机制的局限性。传统方法如同给巨人套上了枷锁,限制了其潜能的全面释放。
论文《General-Reasoner: Advancing LLM Reasoning Across All Domains》提出的 General-Reasoner 训练范式,正是为了打破这些束缚,旨在打造一个能够在全领域展现强大推理能力的LLM。它不是简单的小修小补,而是一套精心设计的“物理系统”,通过创新的数据构建和验证机制,系统性地提升LLM的通用推理核心。
系统之基石:WebInstruct-verified 全领域数据集
任何强大的智能系统都离不开高质量的“燃料”。General-Reasoner的第一个创新,便是构建了一个名为 WebInstruct-verified 的大规模、高质量、多领域、可验证答案的推理数据集。这个数据集的构建过程,本身就像一个精密的物理筛选和提纯工厂:
- 源头活水: 从包含500万条网络爬取指令的 WebInstruct 数据集出发,追溯原始网页,重新爬取精确的问答对。
- 初步筛选 (LLM初审): 利用先进的LLM(如Gemini-1.5-Pro)自动识别那些具有明确、可验证简短答案的问题,初步筛选出约100万条。
- 元数据标注 (LLM精加工): 使用LLM(如Gemini-2.0-Flash)为每个问题标注答案类型、学科类别、难度等级等元数据。特别地,为保证数据集的挑战性,过滤掉了大学级别以下的简单数学题。
- 质量把控 (LLM众包验证): 针对每个问题,由LLM生成8个候选解决方案。通过以下标准进行严格过滤:
- 排除8个答案都错误的“坏问题”(可能源于爬取错误或内容不完整)。
- 排除8个答案都正确的“简单题”,确保数据集的复杂度和挑战性。
- 最终成果: 经过这套“流水线作业”,最终形成了包含约 23万条 高质量推理问题的 WebInstruct-verified 数据集。
这个数据集的“物理特性”在于其多样性和可靠性,为后续的推理引擎训练提供了坚实的基础。
数据集的多样性光彩
General-Reasoner的数据集不仅仅是量大,更在于其“质”的多样性,覆盖了广泛的答案类型和学科领域,这对于培养模型的通用推理能力至关重要。
左图:答案类型分布;右图:学科领域分布。(数据来源:General-Reasoner论文 Fig. 3)
推理之引擎:General-Verifier 模型驱动的验证器
有了高质量数据,还需要一个精准的“裁判”来指导模型的学习。传统基于规则的验证器在处理数学等简单答案时尚可,但面对复杂文本、多步骤推理或语义等价但表达形式不同的答案时,则显得僵化和低效,常常“误判错判”。
General-Reasoner引入了第二个核心创新——General-Verifier。这是一个小巧(1.5B参数)但强大的生成式模型验证器。它的“物理工作原理”更像一个经验丰富的导师,而非死板的规则手册:
- 上下文感知: 它能理解问题的上下文。
- 思维链(Chain-of-Thought)验证: 它不仅仅看最终答案,还能评估答案的合理性,甚至模拟一个简短的思考过程来判断学生答案与标准答案是否等价。
- 生成式判断: 其输出格式为 "y_cot, [sep], y_label",即先给出一个思考过程,然后给出最终的“真/假”标签。
这个General-Verifier使用之前LLM生成的候选答案和验证标注进行训练,能够为强化学习提供更鲁棒、更准确的奖励信号。它在处理多样化答案类型(如列表、字符串、复杂表达式)和非数学领域(如物理、工程)时,表现远超传统规则验证器。
上方案例概念性演示了规则验证器与模型验证器的差异。(示例灵感源自General-Reasoner论文 Table 1)
学习之动力:Zero RL 与 GRPO 算法
General-Reasoner采用 Zero Reinforcement Learning (Zero RL) 设置,直接在基础大模型(如Qwen系列)上进行强化学习,无需预先进行监督微调。这好比直接将一个有潜力的“原材料”投入高级“锻造炉”中锤炼。
其核心的强化学习算法是 Group Relative Policy Optimization (GRPO)。这个过程可以被理解为一个持续优化的反馈循环系统:
- 探索与生成: 当前的LLM(策略模型)针对一个问题,生成一组(G个)候选答案/解题路径。
- 评估与反馈: General-Verifier 登场,评估这些答案的正确性。如果答案正确,给予正奖励(通常为1,并根据答案长度进行微调以避免过长输出);如果答案提取失败或错误,给予负奖励。
- 策略优化: GRPO算法根据这些奖励信号,以及当前策略与参考策略的差异(KL散度,用于稳定训练),来更新LLM的参数,使其倾向于生成更高质量、更可能获得正奖励的答案。
- 迭代提升: 这个过程不断重复,模型在全领域数据集上持续“试错”和“学习”,推理能力逐步增强。
这种“直接强化”的物理过程,配合高质量数据和精准验证器,使得模型能够有效地自我进化,解锁更深层次的推理潜能。
成果之展现:通用推理能力的显著飞跃
General-Reasoner的“物理系统”运作效果如何?论文通过在12个极具挑战性的推理基准测试(如MMLU-Pro, GPQA, SuperGPQA, TheoremQA等)上的全面评估,给出了响亮的答案。
结果显示,General-Reasoner模型(无论基于Qwen2.5还是更新的Qwen3系列)在通用推理任务上显著超越了其基础模型和经过指令微调的模型。例如,在MMLU-Pro这样的综合基准上,性能提升可达10%左右。更重要的是,它在提升通用推理能力的同时,依然保持了强大的数学推理性能,甚至有时能略微超过专门针对数学优化的RL框架,这得益于跨领域知识的泛化迁移。
上图概念性展示了General-Reasoner在MMLU-Pro等基准上相较于基线模型的性能提升。(数据概念源自General-Reasoner论文 Figure 1, Table 2)
特别值得一提的是,其最佳模型 GENERAL-REASONER-QW3-14B 在多个基准上能够匹敌甚至超越像GPT-40这样的顶级商业模型,而这仅仅是通过Zero RL实现的。这充分证明了该训练范式的高效性和巨大潜力。
系统洞察:数据多样性与验证器效能
论文进一步通过消融实验,揭示了系统成功的关键“物理参数”:
- 数据多样性的力量: 对比仅使用数学数据训练和使用完整多样化数据训练的模型,后者在所有通用推理基准上表现更优,同时数学能力不受损甚至略有提升。这表明,跨领域的知识和推理模式的接触,对于培养真正的通用智能至关重要,就像物理系统需要多样化的输入才能适应更广泛的环境。
- General-Verifier的优越性: 对比使用模型验证器和传统规则验证器训练的模型,前者在所有基准上均取得更高准确率。模型验证器能够持续引导模型改进,而规则验证器则较早达到性能瓶颈。这说明一个更智能、更细致的反馈机制是系统持续进化的核心驱动力。模型验证器与Gemini-2.0-Flash的判断一致性远高于规则验证器(78.7% vs 22.2%),尤其在处理非结构化答案和非数学领域时优势明显。
结论:迈向通用人工智能的坚实一步
General-Reasoner不仅仅是一个模型或一个数据集,它是一套精心设计的、具有内在“物理逻辑”的训练范式。它通过构建一个高质量、多样化的知识输入系统(WebInstruct-verified)和一个精准、智能的反馈调节系统(General-Verifier),成功地驱动了大型语言模型在通用推理能力上的显著提升。
从物理逻辑的视角看,General-Reasoner的成功在于它优化了整个“学习物理系统”的各个环节:从输入数据的“纯度”和“广度”,到反馈信号的“精度”和“智能度”,再到学习算法的“效率”。这使得LLM能够更有效地从数据中汲取养分,锤炼出跨领域的、真正通用的推理能力。
这项工作为未来发展更强大的通用人工智能系统提供了宝贵的思路和坚实的基础,预示着我们离那个能够理解和解决各类复杂问题的AI助手又近了一步。